Posts tagged with "Data Science"

决策树

September 20, 2025 4622 words • 24 min read

决策树是一种用于分类和回归（比如预测房价）的非线性方法。它的核心结构就像一棵树，包含两种节点： 1. 内部节点 (Internal nodes)：每个内部节点都**会对一个特征进行测试，并根据测试结果决定走向哪个分支**。通常一次只测试一个特征。 2...

#Ma-Le #Data Science

决策理论

September 17, 2025 2812 words • 15 min read

在我们前面讲解的 SVM 分类器中，我们试图找到**一个明确的边界（超平面）来分隔不同类别的数据**。但现实世界中，数据往往是模糊和重叠的。这就引出了概率分类器的需求：我们不再给出一个“是”或“否”的确定性答案，而是**给出一个属于某个类别的概率**。我们使用贝叶斯定理来知道我们的决策。首先定义如下的概念： - 决策规则 (Decision Rule)...

#Ma-Le #Probability #Data Science

Homework 4

September 14, 2025 2024 words • 11 min read

这一部分实现了分类特征分布的计算。我们创建一个 $X, Y$ 的联合分布表，然后对每个特征标签 `y_label`，统计这一部分对应的 $X$ 的次数和总的 $Y$ 的类别的比值，这个结果就是对应的概率分布。 ```python @mugrade. local_tests class CategoricalDistribution: def __init__(self, X, Y, alpha=1...

#Ma-Le #Data Science

Homework 3

September 13, 2025 3761 words • 19 min read

> 由于本人刚刚接触数据科学，对 numpy 之类的库的使用不是很熟练，因此会写的琐碎一些。 > In this homework, we are going to apply linear regression to the problem of predicting developer satisfaction based upon information about their...

#NLP #Data Science

数值计算技巧

September 9, 2025 1234 words • 7 min read

> 本笔记用于记录在写代码过程中遇到的一些数据处理技巧与注意点。 1. 对特定 `axis` 进行操作的结果： | axis | 对应的维度 | 操作方向 | 结果 | 记忆技巧 | | ------ | --------------- | --------------- | ------------------ | ------------ | | axis=0 | 第一个维度 (行)...

#Numpy #Data Science

自由文本处理

September 6, 2025 2449 words • 13 min read

> 生成：Gemini-2. 5-pro，整理：fyerfyer 自由文本 (Free Text) 指的是那些非结构化的文本数据，例如网页、数据库中的评论字段、文章等。与关系型数据或图谱不同，自由文本的**核心挑战在于它缺乏“易于提取”的结构**。 >...

#Free Text #NLP #Data Science

数据科学基础概念

September 5, 2025 1634 words • 9 min read

在数据科学的许多问题中，我们处理的矩阵本质上都是稀疏的：矩阵中**绝大多数元素都是零**，只有少数非零元素。比如下面两个典型例子： 1. 图（Graphs）：在表示图结构时，一种主要方法是使用邻接矩阵（Adjacency Matrix）。如果节点 $i$ 和节点 $j$ 之间有一条边，那么矩阵中 $(i, j)$...

#Data Science